Отток клиентов Ниединогоразрыва.ком

Изучение общей информации о данных

Получили первый взгляд на данные. В предоставленных данных нет пропущенных значений, выборки разного размера - phone и internet меньше

Предобработка данных

В столбце total_charges существуют скрытые пропуски обозначенные пробелом у клиентов, договор которых открыт числом выгрузки данных. Поэтому эти значения заполним значением monthly_charges

Чтобы вычислить количество дней от старта договора, заменяю значение 'no' в end_date на дату выгрузки. После вычисления разности, столбец begin_date удаляется за ненадобностью, столбец end_date удаляется во избежание утечки целевого признака

Итоги I этапа

  1. Загружены данные. Обнаружено, что выборки phone и internet меньшего размера. Не обнаружены пропуски и дубликаты.
  2. Устранены пробелы в данных о новых клиентах в признаке "всего потрачено на услуги".
  3. Создан признак, явно указывающий на клиентов, расторгнувших договор.
  4. Создан признак, указывающий на количество дней пользования услугами по договору.
  5. Типы данных приведены к соответстсвующим.

Пропуски, обусловленные тем, что часть клиентов не подключала интернет или телефон, заменяем на 'No'. Для однородности данных и экономии памяти заменяем тип данных у бинарных признаков со значениями да и нет.

Проведение EDA анализа

Можно заметить, что существует сильная зависимость между расходами за месяц, интернет сервисом и подключенными услугами. Признак пола почти совсем не значим, в том числе и на целевой признак. У целевого признака нет выраженной зависимости с какими-либо признаками - максимальный коэффициент с количеством дней от начала договора - 0.37

Матрица статистической значимости подтверждает выводы о присутствии мультиколлинеарности. Это нужно было бы иметь в виду при построении линейной модели.

Выводы по визуальному анализу

Можно заметить дисбаланс классов в целевом признаке - в выборке закрыли договор около 15 процентов клиентов.

Больше половины клиентов договор заключают на месяц. Процент ушедших клиентов в этой категории меньше, чем среди договоров на год и на два. Но нужно принять во внимание, что это возможно потому, что пользуются услугами меньше года - большое количество новых клиентов, по истечению этого срока возможно договор закроют.

В процентом соотношении ушедших меньше среди тех, кто получают электронный чек и чек на почту относительно двух других категорий.

Чаще закрывают договор те, у кого есть партнер.

Больше 20-ти % не подключают интернет. Это не влияет на отток клиентов, как и тип используемого оптического волокна.

Каждую доп услугу подключает примерно треть клиентов. При этом среди тех кто подключил - ушедших столько же.

Подключающих многоканальную телефонию на треть меньше, но ушедших среди них больше.

Четверть клиентов платит минимальную сумму в месяц - до 30 ден. ед.

Больше полутора тысяч новых клиентов - они пользуются услугами меньше полугода, это сказывается на общих тратах по клиенту.

Построение модели обучения

Показатель 0.83 меньше требуемого 0.85, обучим другую модель

Достигли результата, превышающего требуемый на кросс-валидации. Протестируем эту модель на тестовой выборке и исследуем важность признаков.

Тестирование и анализ модели

Модель на тестовой выборке показала результаты лучше, следовательно не переобучилась.

По матрице можно сделать вывод, что модель почти с 50-ти процентой вероятностью правильно предскажет значение 1

Как заметно по матрице корреляции признаков, наибольшее влияние на целевой оказывает количество дней пользования услугами.